在現實生活中擁有有標記的資料是非常困難,所以我們一拿到資料其實不是直接套入模型。
非公開資料集中的資料通常存在不夠乾淨的問題,這表示資料中的標籤可能存在錯誤。本文將探討如何檢查並處理這些資料,以及在資料量不足的情況下,如何進行資料增強。本文也會針對特定應用場景,如特殊的影像資料,給出具體的資料擴增解決方案。
1. 資料檢查與處理
非公開資料集的質量通常不如公開資料集,因為其標籤可能包含錯誤。當我們獲取這些資料時,首先需要進行一次檢查。假設我們得到一個刀子裂痕深度的資料集,其中已標註刀子是壞掉還是好的。在這種情況下,我們需要對資料進行預處理。例如,雖然經過可視化處理可以看到磨耗的狀況,但各個高度數值可能會不一致。因此,我們需要將資料壓平到相同的高度。
資料預處理是機器學習模型性能的關鍵步驟之一。資料的清洗和標準化有助於提高模型的準確性和穩定性。
因個別清洗方法不一,需要實際看到檔案為主。
2. Data Augmentation 技術
當資料量不足時,我們可以針對特定資料格式進行資料增強。例如:對於一個網購平台的資料集,包括類別和數值類型,我們可以觀察各項特徵對預測結果的影響,並增加特徵,如計算再次登入的時間間隔或退貨次數。在 Kaggle 的鐵達尼號生存預測競賽中,通過從稱謂中提取特徵,提高了預測結果的準確性。
資料增強技術包括增加資料集的多樣性和豐富性。對於類別和數值型資料,可以通過特徵工程來增加資料的表達能力。對於影像資料,可以使用數據增強技術,如旋轉、翻轉、裁剪等來擴充資料集,從而提升模型性能。
3. 資料特徵選擇與評估
如果特徵之間相關性太高,可能會導致模型偏差。因此可以利用相關係數來評估所有特徵,決定是否需要刪除某些特徵。特徵選擇是機器學習中的重要步驟,它有助於減少資料的冗餘和提高模型的解釋能力。
可參考 Kaggle 競賽
本文探討了非公開資料集的檢查與處理方法,並介紹了如何在資料量不足時進行資料增強。我們還討論了特徵選擇和評估的重要性。這些技術和方法在實際應用中可以有效提高機器學習模型的性能和準確性。如果該資料是以感測器或是有會有誤差的設備所取得的資料,也可以採用salt and pepper noise 乘上該設備誤差範圍進行資料擴增。